بازشناسی برون خط کلمات دست نوشته فارسی در یک مجموعه ای از لغات

thesis
abstract

در این پایان نامه بازشناسی برون خط کلمات دست نوشته فارسی در یک فرهنگ لغت محدود مورد مطالعه قرار می گیرد. برای این منظور یک روش دو مرحله ای پیشنهاد می گردد. در مرحله نخست توسط الگوریتم های خوشه بندی سلسله مراتبی وisoclus کلمات موجود در فرهنگ لغت بر اساس تشابه خوشه بندی می شوند. ویژگی های تشابهی به کار رفته در این مرحله، بردارهای پروفایل بالا، پایین، پروژکشن عمودی و تعداد گذر از سیاه به سفید برای هر ستون تصویر است. برای کاهش ابعاد ویژگی های استخراج شده و محدود کردن آشفتگی این سیگنال ها از تبدیل موجک یک بعدی استفاده شده است. برای اندازه گیری تشابه بردارهای ویژگی های دو کلمه از معیار فاصله dtw استفاده می کنیم. میانگین هر خوشه در فضای ویژگی ها به عنوان نماینده آن خوشه و مدخل مشترک اعضای آن خوشه در فرهنگ لغت تصویری، در نظر گرفته می شود. تعداد کلمات موجود در فرهنگ لغت مورد مطالعه 16000 کلمه از 503 شهر ایران می باشدکه "ایران شهر" نام دارد. در این مرحله کلمات دست نوشته در 62 خوشه قرار می گیرند. در مرحله شناسایی کلمه ورودی، با انتخاب 5 خوشه نزدیک به کلمه دست نوشته مورد آزمون با دقت 94% حدود 77% از کلمات مورد بررسی کاهش خواهد یافت. در مرحله دوم بازشناسی، یکی از کلمات کاندید بدست آمده از مرحله اول می بایست بعنوان کلمه مورد آزمون تشخیص داده شود. در این مرحله از ویژگی هیستوگرام گرادیان روشنایی محلی استفاده می کنیم. برای این منظور گرادیان تصویر کلمه ورودی بلوک بندی می شود. در این پایان نامه دو روش بلوک بندی تطبیقی برای بهبود عملکرد بازشناسی پیشنهاد می گردد. در روش اول اندازه بلوک ها بر اساس توزیع پیکسل های سیاه (قلم) تنظیم می شوند و در روش دوم اجزاء اصلی کلمات دست نوشته به طور جداگانه بلوک بندی و سپس با هم ترکیب می شوند. بردارهای ویژگی مبتنی بر گرادیان کلمه ورودی با بردارهای ویژگی حاصل از کلمات کاندید در فرهنگ لغت در یک طبقه بند مقایسه می شوند. برای این منظور از کلاسه بندهای k نزدیکترین همسایه و svm چند کلاسه استفاده می شود. نتایج بازشناسی کلمات دست نوشته پایگاه داده "ایران شهر" نشان می دهد که مرحله کاهش کاندید ها در فرهنگ لغت باعث افزایش نسبی دقت و سرعت می شود. این به دلیل حذف کلمات نامتشابه در بازشناسی کلمه دست نوشته مورد بررسی است. همچنین روش پیشنهادی بلوک بندی تطبیقی در استخراج ویژگی هیستوگرام گرادیان محلی باعث بهبود 13 درصدی دقت سیستم بازشناسی می شود.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

شناسایی برون خط کلمات دستنویس فارسی در یک مجموعه محدود

هدف این رساله ارائه روشهای بدون قطعه بندی برای شناسایی کلمات دستنویس فارسی در یک مجموعه محدود است . اصولا" روش های بدون قطعه بندی، براساس ویژگیهایی از تمام کلمه یا زیرکلمه عمل می کنند. در این رساله یک نمایش جدید دوبعدی برای کلمات دستنویس فارسی پیشنهاد شده است . همچنین روشی برای تعمیم الگوریتم dtw به دوبعد ارائه شده و برای مقایسه کلمات بکار رفته است . برای آزمون روشهای مختلف ، از یک مجموعه محدود...

15 صفحه اول

تشخیص برون خط کلمات دست نوشته فارسی به کمک بلوک بندی تطبیقی

تشخیص خودکار متن یکی از زیر مجموعه های پردازش تصویر است که به طور گسترده در کتابخانه دیجیتال، خواندن آدرس پستی نامه ها، خواندن چک های بانکی، خواندن فرم ها و پرسشنامه ها استفاده می شود. بازشناسی متون دست نوشته فارسی در دو سطح کلی برون خط و بر خط انجام می پذیرد که سیستم های برون خط خود به دو دسته تقسیم می شود: سیستم های مبتنی بر جداسازی و سیستم های کلی نگر. در سیستم های مبتنی بر جداسازی سعی می ش...

بازشناسی بر خط و بدون محدودیت دست نوشته فارسی

بازشناسی برخط نوشتار یکی از دشوارترین زمینه های شناسایی الگو و هوش مصنوعی بوده و همواره مورد توجه خاص محققان قرار گرفته است. پیچیدگی این زمینه, هنگام برخورد با زبان هایی مثل فارسی و عربی که حروف آن ها باتوجه به موقعیت شان در کلمه, شکل های متفاوتی به خود می گیرند, دوچندان می شود. تحلیل دست نوشته ی فارسی یا عربی در مقایسه با زبان های لاتین، به علت حضور اجزای کوچکی ("نقطه", "دونقطه" و ...) بالا یا...

15 صفحه اول

بازشناسی کلمات دست نوشته با ویژگی های نوین و کاهش فرهنگ لغت

بازشناسی کلمات دست‌نوشته و تبدیل آن به متن تایپی معادل می‌ تواند در تفسیر دست‌نوشته و جستجو در اسناد بسیار حائز اهمیت باشد. در این مقاله سیستمی به منظور تشخیص برون‌ خط دست‌ نوشته فارسی در یک فرهنگ لغت محدود معرفی شده است. به منظور استخراج ویژگی، بعد از بلوک ‌بندی تصویر ورودی و استخراج مرکز هر بلوک توسط مرکز ثقل، میانگین مرکز اجزای متصل از الگوریتم سیفت متراکم استفاده شده است. از روش آنالیز تفکی...

full text

خوشه بندی سبک نگارش دست نوشته برون خط فارسی

هدف این پایان نامه، یافتن و استخراج ویژگی هایی است که بر مبنای آن بتوان دست خط فارسی را خوشه بندی کرد. در این کار، در ابتدا بر روی ویژگی های مبتنی بر بافت، تمرکز شده است. این ویژگی ها شامل دو دسته ویژگی آماری ماتریس باهم آیی و ویژگی مبتنی بر تبدیل گابور است. برای استخراج این ویژگی ها، یک بافت مناسب در ابعاد 1024×1024 مستقل از محتوای سند، از تصویر دستنوشته ایجاد می شود. از ویژگی های دیگری که در ...

15 صفحه اول

مدل‌سازی بازشناسی واجی کلمات فارسی

Abstract of spoken word recognition is proposed. This model is particularly concerned with extraction of cues from the signal leading to a specification of a word in terms of bundles of distinctive features, which are assumed to be the building blocks of words. In the model proposed, auditory input is chunked into a set of successive time slices. It is assumed that the derivation of the underly...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023